搜索资源列表
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
seg
- 进行高级汉字文本分词的功能模块,可以支持多种类型文本,支持停用词过滤。产生的结果可以定制结构 。-Chinese text segmentation for advanced function modules that can support multiple types of text, support for stop words filtering. The result can be customized structure.
IKAnalyzer3.2.8-source
- IKAnalyzer的源码包,实现中文分词功能,(1) 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/ 秒的高速处理能力。 (2) 采用了多子处理器分析模式,支持:英文字母( IP 地址、Email、URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理 。 (3) 优化的词典存储,更小的内存占用。支持用户词典扩展定义 (4) 针对 Lucene 全文检索优化的查询分析器 IKQueryParser;采用歧义分析算法优化查询关键
lingpipe-3.6.0
- 一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character
windows_JNI_32bit
- ICT分词程序接口 用以进行中文文本分词,词性标注。-ICT segmentation program interface for the conduct of the Chinese text word segmentation, POS tagging.
LucexeProject
- 简单全文检索,包括建立索引,文件分割,和安内容或者文件名检索!-Simple text search, including indexing, document segmentation, and security content or file name search!
cut
- 文件分割的工具,可以自动将文本文件分割为用户确定的大小。-File segmentation tools can be divided for users to determine the text file size.
PaoDing
- 中文分词软件——庖丁最新版本,可用于文本检索领域的分词等功能的实现-Chinese word segmentation software- Paoding latest version can be used for the sub-text retrieval functions of the realization of the word
Lucene-code-src3.0-
- Lucene3.0原理与分析java版 第一章 全文检索的原本原理 第二章 Lucene 的总体架构 第三章:Lucene 的索引文件格式 第四章:Lucene 索引过程分析 第五章:Lucene 段合并(merge)过程分析 第七章:Lucene 搜索过程解析 第八章:Lucene 的查询语法,JavaCC 及QueryParser 第十章:Lucene 的分词器Analyzer-The first chapter of the full text searc
jacob-1.16-M1
- 基于lucene的文本分词包,可以对office文件进行解析-Text segmentation based on lucene package, you can parse for office documents
ICTCLAS2012-SDK-0101
- 这是一个分词系统,大家可以用来对文本或者一段话进行分词!具体可以访问,北京理工大学自然语言处理网www.plnir.org-This is a segmentation system, we can use the text or paragraph word! Concrete can be accessed, Beijing Institute of Technology Natural Language Processing Network www.plnir.org
sphider-1.3.5Chris
- sphider是一个开源的轻量级php+mysql全文搜索引擎,带蜘蛛功能,但是对中文支持不友好。 本版本对后台界面进行了汉化,并且对编码及数据库进行了utf8编码统一,完美解决中文乱码问题。 同时应用scws分词系统解决中文分词问题,并修正了中文搜索时不能正确返回信息的bug。 是搜索引擎开发入门的理想之选。-sphider is an open source lightweight php mysql full-text search engine, with the spider fu
WVTool
- 很好的文本分词工具,很适合java初学者。其中有分词jar文件。-Good text segmentation tool, it is suitable for java beginners. Which took part in the word jar file.
Tagxedo
- 实现文字的分词,展示,可以选择图片,根据图片的轮廓利用文字分词后的结果重新进行画画,使词频的大小来控制文字在图片中的大小,非常形象直观,且及富美感-Text participle, display, can choose picture, according to the outline of the image using the text after the word segmentation results back to drawing, make the word frequency
ictclas4j
- 中科院中文分词系统完成的java源码,能很好的实现中文的分词,为文本挖掘提供基础。-Chinese Academy of Sciences Chinese word segmentation system to complete the java source code, can achieve good word of Chinese, provide a basis for text mining.
split_chunk
- 切分功能,两个单词之间的切分到一个文本里-Segmentation function, between two words segmentation to a text file
txtAnalysisGUI
- 文本分析小程序,能够进行简单的文本分析,包括分割单词,统计单词出现数等,适用于初学者-Text analysis applets, can be simple text analysis, including word segmentation, statistics and number of words appear, for beginners
TestNLPIR
- JAVA实现的分词工具,可以进行对文本的分词并提取关键字-JAVA implemented segmentation tools, can be on the word of the text and extracting keywords
909aae2c-4f2c-4771-83e4-6894516f14e1
- 一个中文分词算法,可以实现将分词文本切分成自定义字典中的单词-A Chinese word segmentation algorithm, you can achieve the word segmentation text into a dictionary of words
ReadFiles
- 对中文文本进行分词,去停用词以及计算tf-idf值-The Chinese text segmentation, excluding stop words and computing tf- idf values